我们提出了Video-Transunet,这是一种深层体系结构,例如通过将时间融合到Transunet深度学习框架中构建的医学CT视频中的细分。特别是,我们的方法通过Resnet CNN主链,通过时间上下文模块(TCM)混合的多帧功能(TCM),通过视觉变压器进行非本地关注以及通过基于UNET的卷积为多个目标的重建功能混合的强框架表示强的框架表示 - 具有多个头部的卷积架构。我们表明,在视频荧光吞咽研究(VFSS)CT序列中,对推注和咽/喉的分割进行测试时,这种新的网络设计可以显着优于其他最先进的系统。在我们的VFSS2022数据集上,它达到了$ 0.8796 \%$的骰子系数,平均表面距离为$ 1.0379 $。请注意,准确跟踪咽注:在临床实践中特别重要,因为它构成了吞咽损伤诊断的主要方法。我们的发现表明,所提出的模型确实可以通过利用时间信息并通过显着的边距提高分割性能来增强Transunet架构。我们发布关键源代码,网络权重和地面真相注释,以简化性能再现。
translated by 谷歌翻译
我们为环境辅助生活(AAL)提出了一种新型的多模式传感器融合方法,该方法利用了使用特权信息(LUPI)学习的优势。我们解决了标准多模式方法的两个主要缺点,有限的面积覆盖率和降低的可靠性。我们的新框架将模幻幻觉的概念与三胞胎学习融合在一起,以训练具有不同模态的模型,以在推理时处理缺失的传感器。我们使用RGB视频和骨骼作为特权模式评估了来自可穿戴加速度计设备的惯性数据的拟议模型,并在UTD-MHAD数据集中表现出平均6.6%的准确性,平均为5.5%,伯克利MHAD MHAD DATASET的准确性为5.5%,在这些数据集上达到新的最新唯一分类精度。我们通过几项消融研究来验证我们的框架。
translated by 谷歌翻译
本文结合了一条管道中的物种检测,3D模型拟合和度量学习的深度学习技术,通过利用独特的外套图案来从照片中进行单个动物识别。这是尝试此操作的第一项工作,与传统的2D边界框或基于CNN的CNN识别管道相比,该方法提供了有效且明确的视图标准化,并可以直接对学习的生物特征识别人群空间进行直接可视化。请注意,由于使用度量,该管道也很容易适用于打开集和零射击重新识别方案。我们将提出的方法应用于单个Grevy的斑马(Equus Grevyi)识别,并在一项有关Smalst数据集的小型研究中显示,使用3D模型拟合确实可以使性能受益。特别是,与数据集的2D边界框方法相比,来自3D拟合模型的背面纹理将识别精度从48.0%提高到56.8%。尽管该研究的准确程度太小,无法估算大型现实应用程序设置可实现的全部性能潜力,并且与抛光工具相比,我们的工作为下一步的动物生物识别技术奠定了概念和实用的基础,以深度度量学习在开放的人口环境中驱动的,完全3D感知的动物识别。我们将网络权重和相关的促进源代码与本文发布,以完全可重复性,并作为进一步研究的灵感。
translated by 谷歌翻译
We propose a novel end-to-end curriculum learning approach for sparsely labelled animal datasets leveraging large volumes of unlabelled data to improve supervised species detectors. We exemplify the method in detail on the task of finding great apes in camera trap footage taken in challenging real-world jungle environments. In contrast to previous semi-supervised methods, our approach adjusts learning parameters dynamically over time and gradually improves detection quality by steering training towards virtuous self-reinforcement. To achieve this, we propose integrating pseudo-labelling with curriculum learning policies and show how learning collapse can be avoided. We discuss theoretical arguments, ablations, and significant performance improvements against various state-of-the-art systems when evaluating on the Extended PanAfrican Dataset holding approx. 1.8M frames. We also demonstrate our method can outperform supervised baselines with significant margins on sparse label versions of other animal datasets such as Bees and Snapshot Serengeti. We note that performance advantages are strongest for smaller labelled ratios common in ecological applications. Finally, we show that our approach achieves competitive benchmarks for generic object detection in MS-COCO and PASCAL-VOC indicating wider applicability of the dynamic learning concepts introduced. We publish all relevant source code, network weights, and data access details for full reproducibility. The code is available at https://github.com/youshyee/DCL-Detection.
translated by 谷歌翻译
我们第一次将深度度量学习应用于微观图像上分类塑料传染媒体壳的ProB-LEM。该物种识别任务是重建过去气候的重要信息源和科学柱子。所有Foraminifer CNN识别管道在文献中产生的黑匣子分类器缺乏人类专家的可视化选项,不能应用于开放的设定问题。这里,我们对这些管道进行基准度学习,产生表型塑料综合体形态空间的第一个科学可视化,并证明公制学习可用于在训练期间进行群体看不见。我们展示了在该域中的所有已发布的基于CNN的最新的基于CNN的最先进的基准。我们评估了我们在35个现代综合素粉末类别的45张无尽的福特公共图书馆的34,640专家注释图像上的方法。我们对此数据的结果显示,在培训中从未遇到的聚类物种在从未遇到过66.5%的精度(0.70 f1-score)中,在再现专家标签中发出92%的精度(0.84 f1分)。我们得出结论,度量学习对该领域非常有效,并作为对微泡沫识别专家自动化自动化的重要工具。用本文发布了关键代码,网络权重和数据分离,以满足全重复性。
translated by 谷歌翻译
高飞空中无人机捕获的视觉似乎越来越多地用于评估全球生物多样性和动物人口动态。然而,尽管超高分辨率相机,挑战采集场景和空气传播图像中的小型动物描绘,但到目前为止,这一直是利用高信心地应用计算机视觉探测器的因素。在本文中,我们首次通过将具有超级分辨率技术和高度数据组合的深度对象探测器来解决问题。特别是,我们表明,整体关注网络的超级分辨率方法和定制的海拔高度数据剥削网络进入标准识别管道,可以大大提高现实世界中的检测效率。我们评估两个公共,大型空中捕获动物数据集,Savmap和AED系统。我们发现所提出的方法可以一致地改善烧蚀的基线和两个数据集的最先进的性能。此外,我们对动物分辨率与检测性能之间的关系提供了系统分析。我们得出结论,超级分辨率和高度知识利用技术可以显着增加环境的基准,因此,在检测到空中图像中的微小解决的动物时应常规使用。
translated by 谷歌翻译
虽然在线社交媒体提供了一种忽略或窒息的声音的方式,但它还使用户可以平台传播可恨的言论。这种讲话通常起源于边缘社区,但它可以溢出到主流渠道中。在本文中,我们衡量加入边缘仇恨社区的影响,以仇恨言论传播到社交网络的其余部分。我们利用Reddit的数据来评估加入一种回声室的效果:一个志趣相投的用户,表现出仇恨行为的数字社区。我们在成为积极参与者之前和之后衡量成员在研究社区之外的仇恨言论的用法。使用中断的时间序列(ITS)分析作为因果推理方法,我们衡量了溢出效应,其中某个社区内的可恨语言可以通过使用社区外的仇恨单词用作代理,可以通过使用社区的层次来传播该社区之外的效果对于博学的仇恨。我们研究了涵盖仇恨言论的三个领域的四个不同的Reddit子社区(子红):种族主义,厌女症和脂肪欺骗。在所有三种情况下,我们发现在原始社区之外的仇恨言论都在增加,这意味着加入此类社区会导致仇恨言论在整个平台中传播。此外,在最初加入社区后的几个月后,发现用户可以在几个月内接受这种新的仇恨演讲。我们表明,有害的言论不保留在社区中。我们的结果提供了回声室有害影响的新证据,以及调节它们以减少仇恨言论的潜在好处。
translated by 谷歌翻译
模式形成过程中拓扑和微观结构方案中过渡的识别和分类对于理解和制造许多应用领域中的微观结构精确的新型材料至关重要。不幸的是,相关的微观结构过渡可能取决于以微妙而复杂的方式取决于过程参数,而经典相变理论未捕获。尽管有监督的机器学习方法可能对识别过渡制度很有用,但他们需要标签,这些标签需要先验了解订单参数或描述这些过渡的相关结构。由动态系统的通用原理的激励,我们使用一种自我监督的方法来解决使用神经网络从观察到的微观结构中预测过程参数的反问题。这种方法不需要关于不同类别的微观结构模式或预测微观结构过渡的目标任务的预定义的,标记的数据。我们表明,执行逆问题预测任务的困难与发现微观结构制度的目标有关,因为微观结构模式的定性变化与我们自我监督问题的不确定性预测的变化相对应。我们通过在两个不同的模式形成过程中自动发现微观结构方案中的过渡来证明我们的方法的价值:两相混合物的旋律分解以及在薄膜物理蒸气沉积过程中二进制合金浓度调制的形成。这种方法为发现和理解看不见的或难以辨认的过渡制度开辟了一个有希望的途径,并最终用于控制复杂的模式形成过程。
translated by 谷歌翻译
动机:我们考虑通过过渡率矩阵$ Q $ indeClation-ratix $ q $描述动态系统的连续时间马尔可夫链,这取决于参数$ \ theta $。以时间为$ t $计算常态概率分布需要矩阵指数$ \ exp(tq)$,并推断$ \ theta $从数据需要它的衍生$ \ partial \ exp \!(tq)/ \ partial \ theta $ 。两者都在挑战,在状态空间和Q $的大小巨大时计算。当状态空间由几个交互离散变量的值的所有组合组成时,可能会发生这种情况。通常它甚至不可能储存$ q $。但是,当$ Q ​​$可以作为张量产品的总和写入时,计算$ \ exp(TQ)$可通过均匀化方法变得可行,这不需要显式存储$ q $。结果:在这里,我们提供了一种用于计算$ \ Partial \ exp \!(TQ)/ \ Partial \ Theta $,差异化均匀化方法的类似算法。我们展示了我们对流行病蔓延的随机SIR模型的算法,我们认为$ Q $可以作为张量产品的总和。我们在奥地利的Covid-19流行病的第一波浪潮中估计了每月感染和恢复利率,并在全面的贝叶斯分析中量化了他们的不确定性。可用性:实现和数据在https://github.com/spang-lab/tensir中获得。
translated by 谷歌翻译
最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效,例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识,但许多社交媒体使用者仍被有关疫苗的虚假信息淹没,并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包,能够分析Twitter配置文件,以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法,神经网络和自动数据集生成的,并接受了数百万条推文培训。我们发现,该模型可以准确地检测出抗疫苗用户,直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动,以揭露有害的反疫苗接种神话。
translated by 谷歌翻译